문서의 표를 읽으세요

VB C#

using IronOcr;
using System.Linq;

// Instantiate OCR engine
var ocr = new IronTesseract();

using var input = new OcrInput();
input.LoadPdf("table.pdf");

// Perform OCR
var result = ocr.ReadDocumentAdvanced(input);

var cellList = result.Tables.First().CellInfos;

Imports IronOcr
Imports System.Linq

' Instantiate OCR engine
Private ocr = New IronTesseract()

Private input = New OcrInput()
input.LoadPdf("table.pdf")

' Perform OCR
Dim result = ocr.ReadDocumentAdvanced(input)

Dim cellList = result.Tables.First().CellInfos

Install-Package IronOcr

문서의 표를 읽으세요

이 코드 예제는 IronTesseract OCR 엔진을 사용하여 PDF 문서에서 텍스트 및 표 데이터를 추출하는 방법을 보여줍니다.

IronTesseract OCR 엔진의 인스턴스가 생성됩니다.
OcrInput 객체가 초기화되고 LoadPdf 메서드를 사용하여 PDF 파일("table.pdf")이 로드됩니다.
OCR 엔진은 ReadDocumentAdvanced 메서드를 사용하여 문서를 처리하며, 이 메서드는 더 자세한 OcrResult 객체를 반환합니다.
문서에서 발견된 첫 번째 테이블은 result.Tables.First()를 사용하여 접근하고, 해당 테이블의 셀 정보는 CellInfos를 사용하여 추출합니다.
셀 데이터 목록(cellList)에는 이제 텍스트 내용 및 기타 세부 정보(예: 셀 위치, 크기)를 포함하여 테이블의 셀이 포함됩니다.
이 방법은 PDF에서 표와 같은 구조화된 데이터를 추출하는 데 유용하며, 각 표 셀 내의 텍스트에 프로그래밍 방식으로 접근하고 처리할 수 있습니다.